记一次 .NET 某传感器采集系统线程爆高分析

您所在的位置：网站首页 › powerdesigner没有message format › 记一次 .NET 某传感器采集系统线程爆高分析

记一次 .NET 某传感器采集系统线程爆高分析

2023-04-01 10:39| 来源: 网络整理| 查看: 265

一：背景 1. 讲故事

前段时间有位朋友微信找到我，说他的程序使用 hsl 库之后，采集 plc 时内存溢出，让我帮忙看一下怎么回事，哈哈，貌似是分析之旅中的第二次和 hsl 打交道，既然找到我，那就上 windbg 说话吧。

二：WinDbg 分析 1. 为什么会内存溢出

简单观察程序的提交内存之后，发现内存的 Stack 区非常大，随用 !t 看了下到底有多少个线程，截图如下：

不看不知道，一看吓一跳，这个程序居然有近 1.5w 的线程，虽然我见过大世面(3w+线程)，但还是心有余悸，随用 ~*e !clrstack 看了下各个线程都在做什么，经过一顿观察，发现线程都卡在 Interactivelock.Enter 锁上，截图如下：

从代码中看，理论上存在 Interactivelock.Enter() 和 Interactivelock.Leave() 因为各种异常导致锁的不成对进而造成锁污染的情况，看起来是 hsl 代码不严谨造成的什么 bug，观察了下版本也不是最新的，而且最新版的锁这块也修改了逻辑，就让朋友升级下 hsl 再观察看看，看样子这个问题应该轻松搞定了，不过我保守的说了下，如果还是遇到大量的线程，可以随时联系我。

2. 真的搞定的吗

过了一天这位朋友又找到我，说把 hsl 升级到最新版本之后还是出现了大量线程，让我再看一下，继续用 ~*e !clrstack 观察各个线程栈，发现还是卡在 pipeSocket.PipeLockEnter() 这里，这就很迷了，代码如下：

OS Thread Id: 0x1144 (21) Child SP IP Call Site ... 000000A1AFF3DE90 00007ffa9cac6e05 System.Net.Sockets.SocketPal.Connect(System.Net.Sockets.SafeSocketHandle, Byte[], Int32) [/_/src/System.Net.Sockets/src/System/Net/Sockets/SocketPal.Windows.cs @ 118] 000000A1AFF3DEE0 00007ffa9cac6c52 System.Net.Sockets.Socket.DoConnect(System.Net.EndPoint, System.Net.Internals.SocketAddress) [/_/src/System.Net.Sockets/src/System/Net/Sockets/Socket.cs @ 4415] 000000A1AFF3DF30 00007ffa9cac6a63 System.Net.Sockets.Socket.Connect(System.Net.EndPoint) [/_/src/System.Net.Sockets/src/System/Net/Sockets/Socket.cs @ 810] 000000A1AFF3DF80 00007ffa9b7bc75a HslCommunication.Core.NetSupport.CreateSocketAndConnect(System.Net.IPEndPoint, Int32, System.Net.IPEndPoint) 000000A1AFF3DFF0 00007ffa9cac8768 HslCommunication.Core.Net.NetworkBase.CreateSocketAndConnect(System.Net.IPEndPoint, Int32, System.Net.IPEndPoint) 000000A1AFF3E030 00007ffa9cac84ba HslCommunication.Core.Net.NetworkDoubleBase.CreateSocketAndInitialication() 000000A1AFF3E070 00007ffa9cac83b8 HslCommunication.Core.Net.NetworkDoubleBase.ConnectServer() 000000A1AFF3E0B0 00007ffa9c697f8b HslCommunication.Core.Net.NetworkDoubleBase.GetAvailableSocket() 000000A1AFF3E0F0 00007ffa9c697545 HslCommunication.Core.Net.NetworkDoubleBase.ReadFromCoreServer(Byte[], Boolean, Boolean) 000000A1AFF3E160 00007ffa9c6a2779 HslCommunication.Profinet.Siemens.SiemensS7Net.ReadS7AddressData(HslCommunication.Core.Address.S7AddressData[]) 000000A1AFF3E1A0 00007ffa9bfedef5 HslCommunication.Profinet.Siemens.SiemensS7Net.Read(System.String, UInt16) ... 0:021> !dso OS Thread Id: 0x1144 (21) RSP/REG Object Name 000000A1AFF3E058 00000280c8ca33d8 HslCommunication.Profinet.Siemens.SiemensS7Net 000000A1AFF3E0C0 00000281c9150e58 Microsoft.Win32.SafeHandles.SafeWaitHandle ... 0:021> !gcroot 00000281c9150e58 Thread 1144: -> 00000280C8CA37E8 HslCommunication.Core.SimpleHybirdLock -> 00000280C8CA3860 System.Lazy`1[[System.Threading.AutoResetEvent, System.Private.CoreLib]] -> 00000281C9150E40 System.Threading.AutoResetEvent -> 00000281C9150E58 Microsoft.Win32.SafeHandles.SafeWaitHandle 0:021> !do 00000280C8CA37E8 Name: HslCommunication.Core.SimpleHybirdLock Fields: MT Field Offset Type VT Attr Value Name 00007ffa998a71d0 4000162 14 System.Boolean 1 instance 0 disposedValue 00007ffa998ab1f0 4000163 10 System.Int32 1 instance 614 m_waiters 00007ffa9bcea5e0 4000164 8 ...Private.CoreLib]] 0 instance 00000280c8ca3860 m_waiterLock 00007ffa998ac570 4000165 2e8 System.Int64 1 static 859 simpleHybirdLockCount 00007ffa998ac570 4000166 2f0 System.Int64 1 static 857 simpleHybirdLockWaitCount

从上面的 m_waiters=614 来看，当前有 614 个线程在等待，这里要稍微吐槽一下，建议封装 SimpleHybirdLock 的时候最好记录下当前谁在持有这个锁，不然找起来太难了。。。

经过一顿摸索发现是 21号线程正在持有 SimpleHybirdLock，正在调用 GetAvailableSocket 方法出不来，截图如下：

3. 为什么获取不到 Socket

既然有 600+ 线程在等待，大概率在获取可用 Socket 上出了什么问题，有了这个思路我们用 !dso 去找下 Socket 的 IP 地址是什么，看看dump中有没有什么异常。

0:021> !dso OS Thread Id: 0x1144 (21) RSP/REG Object Name 000000A1AFF3E350 00000281c8ac61a8 System.Object[] (System.Object[]) 000000A1AFF3EA38 00000281c9c80608 System.String 172.16.3.208 ....

提取到 IP 地址之后，接下来到用 !strings 到 dump 中搜一下可有这个 ip 相关的信息，果不其然，发现有大量的 IP 超时，截图如下：

到这里我们大概就知道了，原来是程序跑着跑着，由于网络等各方面的问题导致 IP 不可访问，进而引发程序系统性崩盘。

4. hsl 真的很无辜吗

这里没有任何针对性，只是从技术上进行一下探讨，先上一下 hsl 对这块的处理，简化后如下：

public OperateResult ReadFromCoreServer(byte[] send, bool hasResponseData, bool usePackAndUnpack = true) { OperateResult operateResult = new OperateResult(); OperateResult operateResult2 = null; pipeSocket.PipeLockEnter(); try { operateResult2 = GetAvailableSocket(); if (!operateResult2.IsSuccess) { pipeSocket.IsSocketError = true; pipeSocket.PipeLockLeave(); operateResult.CopyErrorFromOther(operateResult2); return operateResult; } ExtraAfterReadFromCoreServer(operateResult3); pipeSocket.PipeLockLeave(); } catch { pipeSocket.PipeLockLeave(); throw; } if (!isPersistentConn) { operateResult2?.Content?.Close(); } return operateResult; } internal static OperateResult CreateSocketAndConnect(IPEndPoint endPoint, int timeOut, IPEndPoint local = null) { int num = 0; while (true) { num++; Socket socket = new Socket(endPoint.AddressFamily, SocketType.Stream, ProtocolType.Tcp); HslTimeOut hslTimeOut = HslTimeOut.HandleTimeOutCheck(socket, timeOut); try { if (local != null) { socket.Bind(local); } socket.Connect(endPoint); hslTimeOut.IsSuccessful = true; return OperateResult.CreateSuccessResult(socket); } catch (Exception ex) { socket?.Close(); hslTimeOut.IsSuccessful = true; if (hslTimeOut.GetConsumeTime() < TimeSpan.FromMilliseconds(500.0) && num < 2) { Thread.Sleep(100); continue; } if (hslTimeOut.IsTimeout) { return new OperateResult(string.Format(StringResources.Language.ConnectTimeout, endPoint, timeOut) + " ms"); } return new OperateResult($"Socket Connect {endPoint} Exception -> " + ex.Message); } } }

从代码中可以看到，hsl 通过 catch 捕获到了异常，但并没有强制 throw 让用户自己做决断，而是吞到了 OperateResult 返回类中，用户层因为偷懒又没有判断这种异常状态导致了此问题的发生。从逻辑看 Socket 是一个非常基础的功能，所以我觉得强制抛出更合理一点，逼迫用户可以更早的强制介入。

5. 为什么会有那么多线程

其实还留了一个问题没有解答，那就是为什么会产生那么多的线程，很显然这是一个 hsl 强吞异常导致的副作用，上层没有判断 OperateResult 的异常码，以为一切都 ok，继续它的周期性调度，被迫生成更多的线程池线程去赴死，危机重重，那具体是怎么调度的呢？可以观察各个线程的创建时间即可。

0:021> ~*e .printf "tid=%xn",@$tid ; .ttime ... Created: Thu Mar 9 09:02:05.541 2023 (UTC + 8:00) Kernel: 0 days 0:00:00.062 User: 0 days 0:00:00.125 tid=38e8 Created: Thu Mar 9 09:02:10.540 2023 (UTC + 8:00) Kernel: 0 days 0:00:00.015 User: 0 days 0:00:00.000 tid=2d64 Created: Thu Mar 9 09:02:15.540 2023 (UTC + 8:00) Kernel: 0 days 0:00:00.015 User: 0 days 0:00:00.015 tid=3aa4 Created: Thu Mar 9 09:02:20.540 2023 (UTC + 8:00) Kernel: 0 days 0:00:00.015 User: 0 days 0:00:00.000 tid=41ec Created: Thu Mar 9 09:02:25.540 2023 (UTC + 8:00) Kernel: 0 days 0:00:00.203 User: 0 days 0:00:00.218 ...

从各个线程的创建时间来看，大概是 5s 采集一次。

三：总结

这次事故主要是由于在设备采集的过程中 IP 出了问题导致的线程数暴涨引发的系统性崩溃，个人觉得朋友和hsl都有一定的责任，一个不检查错误码，一个强吞异常。

内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/huangxincheng/p/17272068.html

标签： oracle数据库 orcale开发 oracle技术文章你还没有登录，请先登录或注册！还没有人评论，欢迎说说您的想法！

【本文地址】

记一次 .NET 某传感器采集系统线程爆高分析

记一次 .NET 某传感器采集系统线程爆高分析

今日新闻

推荐新闻

记一次 .NET 某传感器采集系统 线程爆高分析

记一次 .NET 某传感器采集系统 线程爆高分析

今日新闻

推荐新闻

记一次 .NET 某传感器采集系统线程爆高分析

记一次 .NET 某传感器采集系统线程爆高分析